[Day15] Pretrained ML API

第 11 屆 iThome 鐵人賽

DAY 15

Google Developers Machine Learning

Google'sMachineLearning-挑戰機器智慧極限系列第 15 篇

11th鐵人賽 mlstudyjam machine learning

nightlan1015297

2019-09-18 22:48:29

1457 瀏覽

分享至

在前面的文章提到，GCP上提供了各PreTrained API 他們除了可以把非結構化資料結構化之外，
還能提供甚麼資訊呢？這篇文理會提到四個GCP上的PreTrained API。

1.Cloud Vision API

Cloud Vision API 是GCP上用來分析圖片內容的API，在Cloud Vision API裡，我們可以上傳圖片
而Cloud Vision API會用Json回傳該圖片的內容給我們，而Cloud Vision API可以辨識的東西無奇不有
不管是動植物種類都有，文字辨識小菜一疊，甚至連地標還有企業LOGO都可以偵測，還可以分析該圖片是
哪一種類型的圖片(Ex:風景照~商用廣告~之類的！)而不僅這樣，在某些可能無法辨識物件的圖片，
Cloud Vision API 更會回傳一個叫做 Crop Hints 的東西，這個 Crop Hints 會告訴你，
圖片的哪裡是重點！知名的應用就是Giphy公司用來將Gif裡的文字內容結構化方便使用者來搜索Gif。

2.Video intelligence API

Video intelligence API 是GCP上用來分析影片的API，可以在影片內的某一幀或某些片段分析出影片內容，
在 Video intelligence API 裡，我們可以上傳一部影片，而Video intelligence API會回傳該影片的內容
，那麼 Video intelligence API 會回傳甚麼內容呢？首先是物品分析，Video intelligence API 會分析影片中
的物件，並告訴你在哪個時間點出現、消失，它還可以告訴你影片的每個場景中發生了什麼、鏡頭畫面的轉換...等。

Video intelligence API 回傳的內容就像圖片這樣！(是JSON格式喔~這個是網頁視覺化的)

3.Cloud Speech API

Cloud Speech API 是一個API讓你可以把語音轉換成文字的API，而Cloud Speech API更支援了超過100種語言
只有這樣嗎？才怪，Cloud Speech API 不僅轉換了你的語音~連時間戳記都標上了，意思就是在 Cloud Speech API
的回傳裡不僅有轉換後的文字，還有時間戳記~你可以快速地找到哪句話是在哪個時間點說的！

你也可以利用這個API分析影片裡的音頻來快速尋找相關的影片，如圖！